Well-annotated medical datasets enable deep neural networks (DNNs) to gain strong power in extracting lesion-related features. Building such large and well-designed medical datasets is costly due to the need for high-level expertise. Model pre-training based on ImageNet is a common practice to gain better generalization when the data amount is limited. However, it suffers from the domain gap between natural and medical images. In this work, we pre-train DNNs on ultrasound (US) domains instead of ImageNet to reduce the domain gap in medical US applications. To learn US image representations based on unlabeled US videos, we propose a novel meta-learning-based contrastive learning method, namely Meta Ultrasound Contrastive Learning (Meta-USCL). To tackle the key challenge of obtaining semantically consistent sample pairs for contrastive learning, we present a positive pair generation module along with an automatic sample weighting module based on meta-learning. Experimental results on multiple computer-aided diagnosis (CAD) problems, including pneumonia detection, breast cancer classification, and breast tumor segmentation, show that the proposed self-supervised method reaches state-of-the-art (SOTA). The codes are available at https://github.com/Schuture/Meta-USCL.
translated by 谷歌翻译
Deep transfer learning (DTL) has formed a long-term quest toward enabling deep neural networks (DNNs) to reuse historical experiences as efficiently as humans. This ability is named knowledge transferability. A commonly used paradigm for DTL is firstly learning general knowledge (pre-training) and then reusing (fine-tuning) them for a specific target task. There are two consensuses of transferability of pre-trained DNNs: (1) a larger domain gap between pre-training and downstream data brings lower transferability; (2) the transferability gradually decreases from lower layers (near input) to higher layers (near output). However, these consensuses were basically drawn from the experiments based on natural images, which limits their scope of application. This work aims to study and complement them from a broader perspective by proposing a method to measure the transferability of pre-trained DNN parameters. Our experiments on twelve diverse image classification datasets get similar conclusions to the previous consensuses. More importantly, two new findings are presented, i.e., (1) in addition to the domain gap, a larger data amount and huge dataset diversity of downstream target task also prohibit the transferability; (2) although the lower layers learn basic image features, they are usually not the most transferable layers due to their domain sensitivity.
translated by 谷歌翻译
在家庭场景(例如,对于智能演讲者)中的说话者身份(SID)是一个重要但具有挑战性的问题,因为标记的(注册)话语数量有限,声音和人口不平衡。传统的说话者识别系统从大量随机的扬声器样本中概括,从而导致识别从特定队列中汲取的家庭或以其他方式表现出高度混淆性。在这项工作中,我们提出了一种基于图形的半监督学习方法,以通过本地适应的图形归一化和多视图图的多信号融合来提高家庭级的SID准确性和鲁棒性。与其他关于家庭SID,公平性和信号融合的工作不同,这项工作着重于扬声器标签推理(评分),并提供了一种简单的解决方案,可以实现家庭特定的适应性和多信号融合,而无需调整嵌入或训练融合网络。 Voxceleb数据集的实验表明,我们的方法一致地改善了具有不同客户群和混淆程度的家庭的绩效。
translated by 谷歌翻译
深度学习在识别视频行动方面取得了巨大成功,但培训数据的收集和注释仍然相当艰苦,这主要是两个方面:(1)所需的注释数据量大; (2)在临时注释每个动作的位置是耗时的。已经提出了诸如少量学习或未过时的视频识别等工作以处理一个方面或另一个方面。但是,很少有现有工程可以同时处理这两个问题。在本文中,我们针对一个新的问题,注释高效的视频识别,以减少对大量样本和动作位置的注释要求。这种问题由于两个方面而挑战:(1)未经监测的视频仅具有薄弱的监督; (2)与当前利益行动(背景,BG)无关的视频段可能包含新颖类别中的利益(前景,FG)的行动,这是一种广泛存在的现象,但很少在少量未经监测的视频识别中进行了研究。为了实现这一目标,通过分析BG的属性,我们将BG分类为信息BG(IBG)和非信息性BG(NBG),并提出(1)基于开放式检测的方法来找到NBG和FG, (2)一种对比学习方法,用于学习IBG,以自我监督方式区分NBG,(3)用于更好地区的IBG和FG的自我加权机制。关于ActivityNet V1.2和ActivityNet V1.3的广泛实验验证了所提出的方法的理由和有效性。
translated by 谷歌翻译
风能供应的可变性可能会给将风力发电纳入网格系统带来重大挑战。因此,风力预测(WPF)已被广泛认为是风能整合和操作中最关键的问题之一。在过去的几十年中,关于风能预测问题的研究爆炸了。然而,如何很好地处理WPF问题仍然具有挑战性,因为始终要求高预测准确性以确保电网稳定性和供应的安全性。我们提出了独特的空间动态风能预测数据集:SDWPF,其中包括风力涡轮机的空间分布以及动态上下文因素。鉴于,大多数现有数据集只有少量的风力涡轮机,而无需以细粒度的时间尺度了解风力涡轮机的位置和上下文信息。相比之下,SDWPF提供了半年多的风力涡轮机的风能数据,其相对位置和内部地位。我们使用此数据集启动BAIDU KDD杯2022来检查当前WPF解决方案的极限。该数据集在https://aistudio.baidu.com/aistudio/competition/detail/152/0/datasets上发布。
translated by 谷歌翻译
宫颈异常细胞检测是一项具有挑战性的任务,因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常,细胞病理学家总是将周围细胞作为参考,并进行仔细比较以鉴定其异常。为了模仿这些临床行为,我们建议探索上下文关系,以提高宫颈异常细胞检测的性能。具体而言,利用细胞和细胞到全球图像之间的上下文关系,以增强每个感兴趣区域(ROI)建议的特征。因此,开发了两个模块,称为ROI关系注意模块(RRAM)和全球ROI注意模块(GRAM),还研究了它们的组合策略。我们通过使用特征金字塔网络(FPN)使用单头或双头更快的R-CNN来设置强基础,并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明,RRAM和GRAM的引入都比基线方法获得了更好的平均精度(AP)。此外,当级联RRAM和GRAM时,我们的方法优于最先进的方法(SOTA)方法。此外,我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。
translated by 谷歌翻译
表征比赛风格对于足球俱乐部在侦察,监视和比赛准备方面非常重要。先前的研究将玩家的风格视为技术性能的结合,未能考虑空间信息。因此,这项研究旨在表征中国足球超级联赛(CSL)比赛中每种比赛位置的比赛风格,并集成了最近采用的玩家向量框架。使用了2016 - 2019年CSL的960匹匹配的数据。匹配等级和十种类型的匹配事件与所有阵容播放器的相应坐标均超过45分钟。球员首先被聚集在8个位置。使用非负矩阵分解(NMF),根据播放器向量为每个匹配中的每个玩家构建了播放器向量。在玩家向量上运行另一个NMF进程,以提取不同类型的游戏样式。最终的玩家向量在CSL中发现了18种不同的游戏风格。研究了每种样式的六个性能指标,以观察他们的贡献。总的来说,前锋和中场球员的比赛风格与足球表现的发展趋势一致,而应重新考虑防守者的风格。在高评分的CSL播放器中也发现了多功能游戏风格。
translated by 谷歌翻译
功能重组是现代CNN的分段方法中的重要组成部分,包括卸下采样和上采样运算符。现有运营商独立地将来自小预定区域的多个特征重新组装为每个目标位置的多个特征。这可能导致空间信息丢失,这可能会消失由微小的病变引起的激活,特别是当它们聚集在一起时。在本文中,我们提出了许多特征的重新组装(M2MRF)。它重新组装在尺寸减少的特征空间中的特征,并同时将大量预定义区域内的多个特征聚集成多个目标特征。以这种方式,捕获远程空间依赖性以维持在微小病变上的激活。在两个病变分割基准测试中的实验结果,即DDR和白痴,表明(1)我们的M2MRF优于现有特征重组运营商; (2)配备了我们的M2MRF,HRNETV2能够对基于CNN的分段方法进行显着更好的性能,并对基于变压器的分段方法进行竞争甚至更好的性能。我们的代码在https://github.com/cviu-csu/m2mrf-lesion-egation上公开提供。
translated by 谷歌翻译
现有的几次拍摄学习(FSL)方法通常假设基类和新颖类来自同一域(域名设置)。然而,在实践中,为某些特殊域收集足够的训练样本可能是不可行的,以构建基础类别。为了解决这个问题,最近提出了跨域FSL(CDFSL),以将来自普通域库类的知识传输到特殊域新颖类。现有的CDFSL主要关注在域之间传输,虽然很少考虑在遥远的域之间转移,这是任何新颖的类都可以出现在现实世界中的任何新的课程中,并且更具挑战性。在本文中,我们研究了CDFSL的具有挑战性的子集,其中新颖类别通过重新审视中级特征来从基础类别中的遥远域名,在主流FSL工作中更为可转让尚未转换。为了提高中级特征的可辨性,我们提出了一种剩余预测任务,以鼓励中级特征来学习每个样本的辨别信息。值得注意的是,这种机制也使域内FSL和CDFSL达到域附近。因此,我们在相同的训练框架下分别为交叉和域FSL提供两种类型的功能。在六个公共数据集中的两个设置下的实验,包括两个具有挑战性的医疗数据集,验证了我们的理由并展示了最先进的表现。代码将被释放。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译